Language Models are Few-Shot Learners
https://arxiv.org/abs/2005.14165
https://papers.nips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html
https://proceedings.neurips.cc/paper/2020/file/1457c0d6bfcb4967418bfb8ac142f64a-Paper.pdf
GPT-3論文( #GPT-3 )
https://github.com/openai/gpt-3
(Better language models and their implicationsの後)
Figure 1.2
Larger models make increasingly efficient use of in-context information.
few-shotで性能改善。大規模なモデルほどfew-shotによる上がる幅が大きい
Figure 2.1
Instruction(Zero-Shot)
Demonstrationを入れる(Few-Shot)
In-Context Learning
モデルのパラメタを更新している訳ではないが、文脈から学習しているように見える
Few-Shotのサンプル数を増やすごとに性能が上がる(Figure 1.3など)
Table 2.2: Datasets used to train GPT-3
5000億トークン
(書籍500万冊に相当。1冊10万トークン)
Figure 3.1
validation lossの減少を確認
H Results on All Tasks for All Model Sizes
下流タスクでの評価
In-Context Learningで評価している
Zero-Shot
One-Shot
Few-Shot
(汎用的なLLMができてほしいから納得感)
Figure 3.1 スケール則(Scaling Laws for Neural Language Models)